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PF2020! aneb Když nestačí ani R, ani TpX 


PAVEL STŘÍŽ (CZ) 


Abstrakt. Článek zmiňuje úvahy a kroky vedoucí k vysázení loga PF2020! Logo je vy- 
sázené z šestiúhelníkových nálepek, více o kolekcích v GitHub repozitářích hex-stickers 
(Rstudio) a BiocStickers (Bioconductor). Hlavní zdroj inspirace bylo logo z konference 
useR! 2018, které vytvořil Mitchell O'Hara-Wild za použití jeho R skriptu hexwall. 


Klíčová slova. R, ImageMagick, hexwall, raster, gglogo, magick, tidyverse, ggplot2, sf, TEX, 
Lua, Bash, GraphicsMagick, png, pacman. 


PF2020! OR WHEN NEITHER R NOR TEX ARE SUFFICIENT 


Abstract. The article describes a thinking process and a problem-solving approach of 
creating a PF2020! logo. It's typeset of hexagon stickers, see Rstudio's hex-stickers and 
Bioconductor's BiocStickers repositories in GitHub. "The main inspiration came from the 
useR! 2018 logo which was created by Mitchell O'Hara-Wild using his hexwall R script. 


Keywords. R, ImageMagick, hexwall, raster, gglogo, magick, tidyverse, ggplot2, sf, TEX, Lua, 
Bash, GraphicsMagick, png, pacman. 


1. Problém typu word cloud 


Word cloud / wordle / tag cloud se běžně řeší tak, že slova či obrázky se převedou 
do rastrových obrázků a následně se zkoumají přesahy na úrovni pixelil] Dlou- 
hodobě se zabýváme vektorovým řešením tohoto problému na úrovni TpXu. To 
lze zrealizovat např. přes METAPOST a příkaz bisect, ale to je vše „na dlouhé 
lokte“. Proto nás zaujalo logo z konference userR! 2018, které má svou mřížku 
z šestiúhelníků, ale nálepky (angl. stickers) jsou sázeny jen uvnitř polygonů, v je- 
jich případě mapy Austrálie. Návod lze nalézt na blogu autora, viz webová stránka 


https://www.mitchelloharawild.com/blog/user-2018-feature-wall/ 
2. První dojmy 


Zkusili jsme v tomto duchu připravit PF2020!, v R, co nejrychleji... Ale! Shrneme- 
li problémy: je potřeba doinstalovat knihovny v R a k tomu je potřeba mít nástroje 
a knihovny. Užili jsme Linux a omlouváme se uživatelům Microsoft Windows, že 
jsme testy nezkoušeli pod tímto operačním systémem. Instalovali jsme jednotlivé 
knihovny jednu po druhé a sledovali v R chybové zprávy. Tímto způsobem jsme 


Ihttps://www. jasondavies.com/wordcloud/about/ 
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se vrátili pod Linux a doinstalovali vždy to, co bylo potřeba. A opětovně instalo- 
vali konkrétní knihovnu v R. Jednalo se postupně o knihovny libmagick++-dev, 
librsvg2-dev, libssl-dev, libogdi3.2-dev, libcurl4-openssl-dev, gdal- 
bin a libwebp-dev. Je však možné, že jsme některé nástroje již měli nainstalo- 
vané, proto není výčet úplný. 

Funkce hexwall je závislá na knihovně magick, který nám pro velký počet 
souborů přestane fungovat. V našem případě kolem tisícího souboru. Nehledě na 
časovou náročnost práce s obřím rastrovým obrázkem v pozadí. 

Další problém byl, že se nám za půlden testů zaplnil pracovní adresář /tmp/ 
o 500 GB. Hledejme proto jiné nástroje. 

Poslední problém byl, že jsme nechtěli mapu (geografická data), ale texty, pří- 
padně užít obecný (černobílý) rastrový obrázek. Na tohle jsme se zaměřili. 


3. Zdárné kroky s knihovnou gglogo 


Při hledání převodu znaků do polygonů jsme objevili tuto knihovnu. Pracovali 
jsme v adresáři, kam jsme si uložili skript hexwall: 


$ git clone https://github.com/mitchelloharawild/hexwall.git; N 
> cd hexwall 


Ačkoliv jsme zápasili s převody mezi datovými typy, zde je použitelný výsledek. 
Mezi pokusy jsme na vyčištění používali příkaz rm(list=1s()). 


library(gglogo); library(raster); library(sf) 

letter <- letterToPolygon("PF2020!", fontfamily="Helvetica", dim=c(5000,800)) 
Sr1 = Polygon(cbind(letter$x,letter$y)); Srsi=Polygons(list(Sr1),"s1") 

SpP = SpatialPolygons(list(Srs1), 1:1) 

hex points <- SpP 4>% spsample(type = "hexagonal", cellsize = 20) 

hex pointsecoords 


library(ggplot2); library(tidyverse); as tibble(hex pointsecoords) 
aus hex <- HexPoints2SpatialPolygons(hex points, dx = 20) 

špdf ("nahled.pdf") 

ggplot() + geom sf(data=st as sf(aus hex), colour="blue", fill=NA) 
Hdev.off() 


source("hexwall.R") 

mojkovo <- hexwall("samplehex", sticker width=20, coords=hex pointsecoords, 
sort mode="filename") 

plot (mojkovo) 

Fimage write(mojkovo,"pf2020-pres-hexwall.png") 


$ sE 


1500, 2000 2500 3000 3500 
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V této ukázce se nám nelíbilo, že je tam málo nálepek (5 souborů), nemůžeme 
užít zúženou mezeru za PF i netradičně před vykřičník, abychom poškádlili ty- 
pografický svět, a chtěli jsme si zkusit výběr bez vracení s vracením (vysvětlíme). 
Pokusme se v další části článku tyto úkoly vyřešit. 


4. První krok s knihovnou raster 


Jistým vývojovým mezistupněm se nám stala „zakázka“, chceme-li experiment, 
pro organizátory konference OSSConf v Žilině, Vzali 
jsme logo roku 2019, zvětšili, v GIMPu zasáhli do roku, drobně jsme roztáhli cifry 
a vyčistili vyhlazování typické u obrázků na internetu (Colors—>Threshold) plus 
úprava pixelů „zde, tu a támhle“. Tím jsme si zajistili obrázek přesně se čtyřmi 
barvami a bílým pozadím (v případě nutnosti průhledným). 

Zkusili jsme načíst rastrový obrázek a do vzniklých polygonů vkreslit šestiúhel- 
níky. Abychom se procvičili v R, zkusili jsme cyklus for přes barvy. Přes data[] 
jsme zjistili, že červená barva je v intenzitách 66, 55, 153 a 77. Příslušné RGB 
hodnoty jsme vyčetli v GIMPu. Zkušenější uživatelé R by jistě přišli na to, jak 
unikátní RGB hodnoty získat přímo v R a na tom postavit cyklus. Ručně to u 4 
barev šlo, kdyby jich bylo víc, bylo by potřeba celý postup zautomatizovat. 

Nepodařilo se nám hexa hodnotu barev vytáhnout z data.frame po spojení 
proměnných hodnoty a barvy. Zůstalo nám to jako otevřený problém. 

Zde je výsledek našich snah. 


library(raster); library(ggplot2); library(sf) 
data<-raster("tux/ossconf-2020-upravene.png"); hodnoty<-c(66,55,153,77) 


barvy<-c ("4426baa" ,"£37a9e9","4£999999","4d4d4d") 
mojkovo<-ggplot () 
for (volim in 1:length(hodnoty)) 1 
polygony <- rasterToPolygons(data, dissolve=TRUE, 
fun=function(x)fx==hodnoty [volim]+) 
hexiky <- polygony />% spsample(type = "hexagonal", cellsize = 8) 
nahled <- HexPoints2SpatialPolygons(hexiky, dx = 8) 
mojkovo <- mojkovo + geom sf(data=st as sf(nahled), colour=barvy[volim], 
fil1=NA) 
] 
mojkovo <- mojkovo + theme void(); mojkovo 
pdf ("2020-logo-ossconf .pdf"); mojkovo; dev.off() 
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5. Druhý krok s knihovnou raster 


Připravili jsme si obecný rastrový obrázek. Začali jsme v TgXu ve složce sazba 
sázet soubor pf2020.tex: 


documentclassfarticle) 

pagestylefempty) 

Vusepackagefgraphicx) 

beginfdocument) 

Ncenteringbfisffamily 
Nresizebox(9.5mm>f!JfPFINpar2020!par ČStSY 
Nendfdocument) 


Získali jsme postupně pdf a poté tif soubor v linuxovém prostředí: 


$ lualatex pf2020.tex; X 
> pdfcrop --hires --margins 5 pf2020.pdf; N 
> gm convert -density 300 -monochrome pf2020-crop.pdf pf2020-crop.tif 


V R jsme užili tento skript: 


library (raster) 

library(tidyverse) 

library (sf) 

data <- raster("sazba/pf2020-crop.tif") 

polygony <- rasterToPolygons(data, dissolve=TRUE, fun=function(x)fx>0)) 
hexiky <- polygony 4>% spsample(type = "hexagonal", cellsize = 1.5) 

as tibble(hexiky) 

nahled <- HexPoints2SpatialPolygons(hexiky, dx = 1.5) 

ggplot() + geom sf(data=st as sf(nahled), colour="brown", fill=NA) 


Zajistili jsem si tak, že můžeme pracovat s libovolným černobílým rastrovým 
obrázkem a libovolným rozlišením. V této chvíli jsme však neužili skript hexwall, 
ale vyexportovali jsme si nalezené souřadnice středů šestiúhelníků. 


write.table(hexiky©coords, "hexagony.csv", sep=",", col.names=FALSE) 
První řádky souboru hexagony.csv vypadaly takto: 


"1",62.7959799161181,21.6272033299488 
"2",64.2959799161181,21.6272033299488 
"3",65.7959799161181,21.6272033299488 


6. Sesypání šestiúhelníkových nálepek 


Objevili jsme dva velké repozitáře s nálepkami, stáhli jsem si je přes: 


$ git clone https://github.com/rstudio/hex-stickers.git; X 
> git clone https://github.com/Bioconductor/BiocStickers.git 
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Nakopírovali jsme si png do nové složky pfhex, u hex-stickers to bylo rychlé. 
U BioStickers jsme použili pomocný skript v Lua, který nám naparsoval README. maj 
a vytáhl si png soubory nálepek z podadresářů: 


soubor=io.open("README.md") 

obsah=soubor:read("*all") 

soubor: close () 

kam=io.open("spust.sh","w") 

unicode.utf8.gsub(obsah, "<img src=W"(["W"]-4.png)W"", function(s) 
print(s) 
kam:write("cp "..s.." ../hexwall-master/pfhexn") 
end) 

kam:close() 


Soubor jsme spustili přes texlua dostupný v IEgXLive a vzniklý dávkový soubor 
přes sh. 

Posledním úkolem bylo připravit si podklady. Připravili jsme si složku pfhex- 
output a spustili následující (šikovný administrátor si snadno převede do skriptu): 


$ cd pfhex; X 


> for file in "find -type f -iname X*.png -printf "%fXn""; do X 
> echo $file; X 

> © gm convert $file -transparent white ../pfhex-output/$file; N 
> done 


Tím jsme zajistili, že jsou soubory průhledné, nezlobí tam barevný profil ICC 
(ImageMagick) a můžeme operativně zasáhnout do velikosti obrázků přes para- 
metr resize. 


7. Luujeme 


Nyní máme stavební kameny a opustíme R. V TEXu je práce s datovými soubory 
možná, my použijeme Lua skript a v TpXu budeme jen sázet výsledek. Je to ob- 
doba generování HTML přes PHP či JavaScript. Kvůli čitelnosti však nemícháme 
Lua skript uvnitř TEXu, což je možné, ale oddělíme jej. 

Lua jako skriptovací jazyk se stal neocenitelným pomocníkem v TpXovém světě. 
Příchod MIpXu3, nemluvě o CONIpXTu, sice umí mnohé, ale pro „obyčejné“ 
programátory je Lua jen jiná forma C++, Javy, JavaScriptu, Pythonu či Perlu. 
Ukažme si prvně střípky programování v Lua. 


7.1. Výběr s vracením 


Kdybychom chtěli vybrat 13 čísel od 1 do 52, můžeme to učinit takto: 


for k=1,13 do 
print (math.random(1,52)) 
end -- končí cyklus for 
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Takový soubor bychom spustili přes texlua z IgXLive. Nabízí se možnost pro- 
gramu lua, např. z balíku lua5.2, případně lua5.3 z balíku luab.3. 


7.2. Výběr bez vracení 


Vytvoříme si prázdné pole a vyplníme jej hodnotami 1 až 52. Postupně volíme 
pořadí z pole a vypisujeme hodnotu na dané pozici. Tuto hodnotu pak z pole 
odebereme. 


hodnoty=1+ 
for x=1,52 do table.insert(hodnoty,x) end 
for k=1,13 do 
vyber=math.random(1,fhodnoty) 
print (hodnoty [vyber]) 
table.remove (hodnoty ,vyber) 
end -- končí cyklus for 


7.3. Výběr bez vracení s vracením 


Taková vánoční drobnost. U novoročenky jsme chtěli výběr bez vracení, ale nale- 
zených šestiúhelníků jsme měli víc než nálepek. Místo nějaké formy stratifikova- 
ného výběru jsme z pole hodnoty odebírali a jakmile bylo pole prázdné, vyplnili 
jsme si jej všemi dostupnými nálepkami znovu. Tím jsme zajistili, že jsou výběry 
náhodné, ale že se žádná nálepka neopakuje výrazně vícekrát než jiné. Základem 
Lua je práce s tabulkami, při jejich kopírování přebíráme jednotlivé položky (angl. 
deep copy), prosté „rovná se“ by nám nepomohlo. 

Pojďme na školní ukázku. Z 52 čísel jich vybereme 117. Znak + nám zjistí 
aktuální velikost pole. 


hodnoty=(+; vsechny=1) 

for x=1,52 do 
table.insert(hodnoty,x) 
table.insert(vsechny,x) 

end -- končí cyklus for 

for k=1,117 do 
vyber=math.random(1,4hodnoty) 
io.write(hodnoty[vyber].." ") -- místo print 
table.remove (hodnoty ,vyber) 
if hodnoty==0 then -- deep copy 

for k,v in pairs(vsechny) do hodnoty[k]=v end 

end -- končí podmínka if 

end -- končí cyklus for 


Náš pokus by mohl dopadnout takto: 34 13 35 46 7 12 48 43 |...] 16 5 28. 

Pozorný čtenář jistě brzy zjistí, že 39 hodnot se opakuje přesně dvakrát, 13 hod- 
not přesně třikrát. Obdoba by byla, když rozdáváme balíček karet, a jakmile jsme 
všechny karty rozdali, použijeme další balíček karet. Kdybychom rozdávali po 13 
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kartách, rozdali jsme karty 9 hráčům, spotřebovali bychom dva celé a jednu čtvr- 
tinu balíčku žolíkových karet bez žolíků. 


8. R+Lua+ TEX 


Bokem si uložíme z adresáře pfhex-output seznam nálepek: 
$ ls *.png >../soubory-pfhex.txt 


V R jsme provedli výpočty a získali jsme soubor hexagony.csv. Nyní si přes 
Lua skript tyto dva soubory načteme. Náš cíl je vygenerovat TikZový zdrojový 
kód, který vysázíme. Navíc jsme si v Lua skriptu nastavili jednoduché měřítko. 
Výsledek našich snah by mohl vypadat takto: 


math.randomseed(1) 
soubory=io.open("soubory-pfhex.txt") -- seznam nálepek 
obsah=soubory:read("*all") 

soubory :close() 

pngs=() 

pngsfull=1) 


unicode.utf8.gsub(obsah, "(["An]-)in", function(s) 


table.insert(pngs,s) -- pracovní tabulka s nálepkami 
table.insert(pngsfull,s) -- neměnná tabulka všech nálepek 
end) 

soubor=io.open("hexagony.csv") -- seznam nalezených souřadnic šestiúhelníků 


obsah=soubor:read("*all") 
soubor: close () 
kam=io.open("zdrojak.tex","w") -- TikZový zdrojový soubor 
kam:write("MXbeginftikzpicture) [remember picture, overlay]in") 
unicode.utf8.gsub(obsah, ",([7,]-),(["Nn]-)Nn", function(s,t) 
tos=s/1; tot=t/1 -- jednoduchá škála, je-li nutná 
pickup=math.random(1,ipngs) -- výběr bez vracení 
kam:write(" AXnodelm] at ("..tos.."pt,"..tot.."pt) 
fWincludegraphics [width=WXmaldimen]f"..pngs[pickup].."+);Mn") 
table.remove(pngs,pickup) -- odebere vybrané logo 
if řpngs==0 then -- vrátit všechny nálepky, deep copy 
for k,v in pairs(pngsfull) do pngs[k] = v end -- for 
end -- if 
end) -- unicode.utf8.gsub 
kam:write("Nendftikzpicture)in") 
kam:close() 


Postupně se generuje soubor zdrojak.tex, první řádky vypadají takto: 


Vbeginftikzpicture) [remember picture, overlay] 
node [m] at (62.795979916118pt,21.627203329949pt) 
fVincludegraphics[width=Xmaldimen]fglue.png)+; 
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node [m] at (64.295979916118pt,21.627203329949pt) 
fVincludegraphics [width=Xmaldimen]fscmap.png)+; 


Náš poslední úkol je načíst si tento TikZový kód a vysázet novoročenku, soubor 
pf .tex. To provedeme v TpXu. My jej měli ve složce sazba, aby se nám pomocné 
TEXové soubory nemíchaly s ostatními. 


documentclass [landscape] (article) 
pagestylefempty) 
Vusepackageftikz) 
graphicspathí £../pfhex-output/) + 
Vnewdimenmaldimen Xmaldimen=1.5pt / cellsize / škála v Lua souboru 
Wtikzsetfinner sep=0pt, outer sep=0pt, 
m/.style=(xshift=-100pt, yshift=-100pt, draw=none) + 


beginfdocument+) 
Vinput ../zdrojak.tex 
endfdocument) 


Nezbývá než si vše vysázet: 


$ lualatex pf.tex; N 

> lualatex pf.tex; N 

> pdfcrop --hires --margins 0 pf.pdf; X 

> gm convert -density 1800 pf-crop.pdf pf-crop.png 


První dva řádky zajistí vysázení a absolutní umístění na straně. Třetí řádek 
nám ořeže ochrannou bílou zónu. Šikovný TpXista brzy zjistí, že by se to dalo 
zjednodušit na jeden běh TpĚXu bez nástroje pdfcrop. Necháváme otevřené pro 
badatele. Poslední řádek nám vygeneruje rastrový náhled. 

Nezbývá než se pokochat vánočním dárkem, a doufat, že soubory pdf a png 
nebudou moc velké, nebude se to mezi svátky dlouho vykreslovat a do Nového 
roku se novoročenka celá zobrazí 
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9. Závěrečné tipy: ještě jedno ohlédnutí za R 


S určitým časovým odstupem si odpovídáme na otevřené otázky u R. 

Při instalaci knihovny rgdal to chce novější verzi R než nabízí standardní linu- 
xový repozitář (Xubuntu 18.04). Vyřešili jsme to takto. 

V /etc/apt/sources.list jsme přidali: 


deb https://cloud.r-project.org/bin/linux/ubuntu bionic-cran35/ 
Následovala instalace R: 


$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 
E298A3A825C0D65DFD57CBB651716619E084DAB9 
$ sudo apt update 


ca 


sudo apt upgrade 
$ sudo apt install r-cran-base 


V případě problémů se závislostmi užíváme místo známých programů apt či 
apt-get program aptitude. Hodilo se nám to při míchání 32 a 64bitových apli- 
kací, resp. programů z různých linuxových distribucí. 

V R následuje doinstalování knihoven, které použijeme. Ideální řešení je insta- 
lovat jednu knihovnu za druhou a sledovat případné chybové zprávy. 


install.packages(c("png","spex","raster","rgdal","sf","pacman")) 


9.1. Zjištění barvy konkrétního pixelu 


Poněvadž jsme zápasili s datovými typy, zkusili jsme si získat barvu konkrétního 
pixelu a dostat jeho RGB složky, ve stylu GIMPu, ale už bez GIMPu. 

Využili jsme knihovnu raster a funkci brick nebo stack, získali jsme složky 
RGB, převedli na šestnáctkové hodnoty a přidali znak . 


library (raster) 

data<-brick("tux/ossconf-2020-upravene.png") % nebo 

data<-stack ("tux/ossconf-2020-upravene.png") 

danaBarva<-paste("4f", paste( as.hexmode( getValues(data,50,1)[50,] ), sep="", 
collapse=""), sep="") 

danaBarva 


Výstup je: 
[1] "%426baa" 


To už lze přímo použít pro parametr colour, např. colour=danaBarva. 


9.2. Výpis všech barev v obrázku 


Máme za sebou barvu jednoho pixelu, podívejme se, jak lze proces zautomatizovat 
a získat všechny jedinečné barvy v rastrovém RGB obrázku. Použijeme knihovnu 


png. 
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library (png) 
mujpng<-readPNG ("tux/ossconf-2020-upravene.png") 
unigue(as.raster(mujpng[,,1:3])) 


Výstup je: 
[1] "4FFFFFF" "44D4D4D" "4426BAA" "4£37A9E9" "£FEFEFE" "$FEFFFF" "4999999" 


U našeho obrázku linuxového tučňáka Tuxe v logu konference OSSConf jsme 
zjistili, že máme dvě barvy (4426BAA, £37A9E9), dvě šedé (44D4D4D, 4999999), 
bílé pozadí (KFFFFFF) a na první pohled neviditelné, řekněme „parazitní“ , chceme- 
li přehlédnuté, téměř bílé pixely: šedé a barevné (£FEFEFE, *FEFFFF). 

Nyní už lze barvy oddělovat (například chceme mít co barva to jeden polygon), 
filtrovat (nechceme např. bílé pozadí ani padesát odstínů šedi), měnit (nahradit 
jednu barvu za jinou), spojovat (např. spojit barvy textů, nebo vše spojit do 
jedné barvy) ap. 


9.3. Pracovní zobrazení obrázku 


Zkusíme si jednoduchý filtr: odstranit bílé a téměř bílé pixely a zobrazit si pra- 
covní náhled obrázku. Zároveň pro načtení více R knihoven otestujeme knihovnu 
pacman. Zmíněné otevřené problémy v R jsou tímto uzavřené. 


Klibrary(raster); library(sf); library(spex); library (ggplot2) 
library (pacman) * alternativní postup načtení více knihoven 
pacman::p load("raster","sf","spex","ggplot2") 
data<-raster("tux/ossconf-2020-upravene.png") 

data [data>200] <- NA £ ořez bílých a téměř bílých pixelů 
vysledek<-polygonize (data) 

Wplot(vysledek) 4 je to pomalé, ale použitelné 

pdf ("pracovni-nahled.pdf") £ uložení pro bulletinek 
ggplot()+geom sf(data=st as sf (vysledek)) 

Hdev.off() £ uzavření ukládání pdf 
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